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Besdireibung 

Die Erfodung bedeht sich atif hidden Kfarkov ModeDe fOr Spracherkennungssystemep wobei ein solches 
ModeO f&r mdirere Sprachen herangezogen werden soil indent die aimcricrii^ and phonedschen Ahnfidikdten 
zwischen den unterschiedlichen Sprachen ansgemrtzt werdea 
Ein Spracfaerkgaintingssysteni fOr mehngre Sprachen istausder WO 95/02879 Al bdcannt 
Bei der SpFacherkemung besteht em groBes Problem darin^ daB fOr jede Spradie m welche die Spracherken- 
mmgst echnologi e eingefOhrt werden soflL neue akustisdi phonetisdie Modelie trainiert werden mtissai am erne 
Landeranpassung dmrhfOhren zu kSnnen. Meistens werden bei gingigen Spracherkemrangssystemen hidden 
Markov Modelie zur Modellierung do* sprachspezifisdien Laute verwendet Aus diesen statstisdi modelfiertn 
Lammodenen werden im AnschluB akmidsdie Wbrtmodgnft Tn^ammm^Ki^^ mirh^ watwwtrf »fn»x Snrhpm- 

ZqgeS bdm Spradie rkenmm gSVQrgang erkaimt mrdm T^ nn Tratning Atm^ T jtmn/w<»ni» colty itmftiwig - 

reicfae Sprachdatenbanken bendtigt, deren Sammhmg und Aufberettung dnen inBerst kostm- imd zeitintena- 
ven Prozefl darstdlt Hierdurch entstehen Nacfatefle bd der Porriemng efaigr Sji rarfiCTirMmntigy tw?>m^tegift ypn 
einer Sprache m eine weitere Spradie; da die Erstelhmg emer nenen Spradidatenbank einerseits dne Verteue- 
nmgdes Produktes bedeotet mid anderersdts dne zdtfidie VerzQgermigbd derMarkteinfOhrmig bedingt 

In gdngigen erwerbbaren Spradierkenmmgsyystemen werden aussdifieBfidi sprachspezifisdie ModeDe ver- 
wendet Zor Pordenmg dteser Systeme in eine neue Spradie werden mnfongreidie spr anfiff gt ff»^a"^^ gesam- 
mdt mid aolberdtet AnschlieBend werden die Lantmodelle fOr die neue Spradie nut diesen gesammdten 
Spradidaten von Gnmd auf nea trsuniert. 

Um den Aizfwand mid cBe Zeitverzdgenmg bd der Pordenmg von Spradierkemmngssystemen m miter- 
sduedfiche Spradien za verringenu soQte abo mitersudit werden, ob «nfelng Lantmoddie fOr die Verwendmig 
in versduedenen Spradien geeignet smd. Hierzu gibt es in [2] berdts Ansitze mehrspradiige Lantmodelle zu 
CTst^ und diese bd der Spradierkenming in den jewdl^gen Spradien emzusetzen. Dort wertien auch die 
Begnffe Poly- und Monophoneme dngefOhrt Wobd Polyphoneme Laute bedeutei^ deren Laud>ildmigseigen- 
K^ften Obcr mehrere Spradien hinw^ ahnlk:h geraig sind, mn gldAgesetzt zu werden. Mit Monophonemen 
werden Laute b ezetdmet wddie spradispeziflsche Eigensdiahen aufwdsen. Um far soldie Entwiddungsarbd- 
^ imdlJntersu^ni^ i^t j ed^nd neue Spradidatenbanken tnunieren zu mOssen, stehen soldie sdion als 
Standard zur Verfilgmig [6J [4J [7], Ein wdtcrer Stand der Tedmik zur mehrspradiigen Verwendune von 
Lautmodellen ist mdit bekannt 

Die der Erfindung zugrundeliegexuie Anfgabe besteht demnadi darii^ dn Verfdven zur Mehrspradienver- 
wendung ernes hiddra Markov Lautmodelles in dnem Spradierkennungs^ystem anzugebei^ durdi wddies der 
Porderungsaufwand von Spradierkemmngssystemen in dne andm Spradie minimiert wir4 indem die Parame- 
ter m emem muldOi^guden Spradierkeiinungss;ystem reduziert werdeiL 

Diese Aufgabe wird gemafi den Meriooden der PateotansprOdie 1 und 6 geldst 

Wciterbildungen der Er&uhmg ergeben ddi aus den abhln^gen AnsprOdien. 

En besondercr Vorteil des erfindmigsgemafien Verfehrens besteht darin» daB dn statistisdies Ahnfidiketts- 
maB uigegeben winl welches es eriaubt aus emer gegebenen Anzahl von versdiiedenen i^tttmrw^yfli^n fSr 
ifanudie Laute m untersduedEdien Spradien das j edge LautmodeQ auszuwahlen, weidies in seiner Charakteri- 
stik alle zur VeifOgung stehenden Merkmalsvektoren der jeweiCgen Lame am bestm besdirdbt 

Besonders vorteilhaft wird als MaB fOr die Answahl des besten hidden Markov Moddles fflr tmterylif^Hif 
Lautmerkmalsvdrtoren der log^ Wahrsdidnfidikdtsahstand zwisdien den jewdligen hidden Mar- 

kov ModeUen und dnem jeden Merkmalsvektor ermittdt Kerdurdi wird ein MaB zur VerfOgmig eestdlt 
J^^^^^^^^wtefle Befunde bezOg^der Ahnfidikdt von dnzdnen Lautmoddlen und deren Er&miungs- 

Besoiuim vorteffliaft wird als MaB fOr die Besdurdbung dues md^dist reprSsentathren hidden Markov 
LantmodeUes nadi der Erfindung der arithmetisdie Mittelwert der logaridunisdien WahrsdidnfidikdtsabstSn- 
de zwisdien jedem hidden Markov Moddl und den jewdligra Merkmalsvektoren gebiWet da hierdnrdi dn 
symmetnschcr Abstandswert erhalten wird 

^rtdttaft wffd das erfindmitgsgemaBe BesdireibungsmaB fOr die reprisentadve Qgensdiaft dnes Mdden 
Markov ModeOs zur Besdirdbung von Lauten m untersdiiedlidien Spradien dadordi geUhlet* daB die crfin- 
dimgsgemSBenGleidwngen I bis3 angewendetweniKudahiCTdundiemgeringerRe^ 

BcsondenvorteBhaftwirdfOrdieerfindungsgcmaBeM^ 
w^^^^'^*^^^^ ™* Erkenmmgsrate des reprSsenderenden hidden Markov ModeSs emgestdlt 

B«)ndcn vorteffliaft wird durdi das erfindungsgemaBe Vcrfahren der Spddieraufwand flir dne Spradibi- 
bliotbek reduaert, da em ModeH fOr mehrere Spradien verwendet werden kann und ebenfolls der Porderunss- 
au^rand von emer Spuradie in die andere nunimiert was dnen reduderten Zdtaufwand fOr die Ford&w^ 
bedmgt EbMso vorteilhaft wird dn geringerer Redienaufwand bd dor Viterbi-Sudie ermdglidii, da bdspids- 
weise bet mehrspradiigen Bngabe^ystemen wentger ModeOe QberprOft werden mfissea 

Besonders voitdlhaft werden bd der Erfindung besondere hidden Markov ModeDe zur Verwcndung m 
mehrsprachigen Spradiericamungs^ystemen generiert Dmch die erfindungsgonaBe Vorgdienswdse temen 
hidden A^kov Uutmoddle fOr Laute m mehreren Spradien zu Pblyphonem-Moddlen zusammengefaBt 
werden. Hierzu werden Oberiappungsberddie der verwendeten Standardwahrsdiemfidikdtsdiditevertdhm- 
pn bei den untersdiiedncfaen Moddlen untersudit Zur Besdirdbung des Polyphonem-ModeUes kann dne 
beUebige Anzahl von ulentisdi bei den untersduedUdien ModeUen verwendeten Standardwahrsdidnlidikdts- 
diditevCTteilungen herangezogen werden. ExperimenteUe Befunde habengezdgt daB vorteilhaft audi mehrere 
Standardverteilungen aus untersdiiedUdienSpradimodeUen verwendet werden kannen. hnedaBdiehierdurdi 
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bewirkte Verwischtmg der emzefaien Sprachdiarakteristika zu mer agnifikant niedrigeren E ri c enmmg srate 
betm Einsatz dieses Modells fuhren wlirde. Als besonders vorteilbaft hat sich hier der Abstandsschwelleirwcrt 
fOnf zwiscfaen ifanlichen StandardwahrschefnRrhlceitsvertcaungsdichten bewihrt 

Besonders vorteilbaft werden beim Qnsatz des erfindimgsgezniBea Verfafarens die hidden Markov ModeOe 
mit drei Zos^nden ans Aclant» Mitteliaut and Ablaut moddliert, da hierdtirch eme hinradiende Genani^eit bei 
der Bpsrhrff«h"»g der Laute erzielt wird und der Recfaenanhrand bei der Erkenmmg in dnem Spracher k enner 
geringbleibt 

Fig. 1 dabei beispielhaft den Aufbau dnes einzigen Mnltifingnalen Phonemes. In diesem Fall ist es das 
Phonem M was dargesteUt wird Die Zahl der Wafar sc farfn B cfake it sdin ht en und die EAennungsrate far dieses 
Pfaonem sind in Tabelie 4 angegeben. 
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Thr. 


fdensit (a,b,c) . 


En9l.[%] 


Gem.r%] 


Spa2l.[%] 


0 


341(0 0 341) 


46.7 


44.7 


59.4 


2 


334(0 14 327) 


45.0 


46.4 


57.5 


3 


303(27 34 280) 


48.0 


45.8 


57.5 


4 


227(106 57 187) 


50.9 


44.1 


58.7 


5 


116(221, 48,72) 


49.3 


43.1 


57.0 


6 


61(285, 22, 34) 


41.2 


38.6 


50.4 
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In Fig. 1 ist der Anlaut L, der \fittel laut M und der Ablaut R des Phonem-Modelles dargesteUt FQr (tie 
unterschiedlicben Spradien Eoglisch £N» Deutsdi DE und Spanisch SP sind die Scfawerpunkte der Wahrschein- 
licfakeitsdiditeverteilungen der einzelnen verwendeten Standardwahrscheinlidikdtsdichten dngetragm und als 
WD gekennzeidmet Hier ist beispielsweise dn hidden Markov Modell aus drei Teilzustandea dargesteUt Die 
Erfindung soli jedoch nicht ledigiidi auf solche hidden Markov Modelle besduankt werdoi* obwohl cfiese unter 
Beriidcsiditigung des Kiiteriums; das ein minimaler Redienaufwand der Erkennung durcfagefuhrt werden soil 
ein gewisses Optimum darstellen. Die Erfindung kasn ebenso auf hidden Markov Modelle angewendet werden^ 
die due andere Anzahl von ZustSnden aufweisen. Dnrch cfie Erfinduog soil insbesondere errddit werden, daB 
der Porderungsaufwand bei der Porderung von Spradier kftm i u ns s s y s tem en in eine andere Spradie reduziert 
wird und daB die verwendeten Redienressourcen durdi Reduktion der zugrundeGegenden Paiameto' md£$dist 
gering gehalten werden. Beispielsweise k5nnen durdi derartige Sprachexicennungssysteme begrenzte Hardwa- 
reerfordemisse besser crfGIh werden, insbesondere wenn ein- und dasselbe Spradierkennungssystem fOr Mehr- 
sprachenanwendung in einem GersLt zur VerfOgung gesteOt werden soU 

Zunsldist soUte um das Sd der Erfindung zu erreichen, die Ahnlichkdten von Lauten in untersduedlidien 
Spradien auszosdidpfen und bdm Modellieren zu berOdEsiditigen, beaditet werden* daB sidi die Phoneme in 
versdiiedenen Spradien untersdidden kdnnen. Die GrOnde hierfur bestdien vor aOen Dingen in: 

— Untersdiiedndien phonetisdien Kontexten, wegen der untersduedSdien Pfaonemsitze in den versdiie- 
denen Spradien; 

— untenduedlichen Sprediwdsen; 

— verscfaiedenen prosodisdien Merkmalen; 

— untmdiiedQidien aDophonisdien Variationen. 

Bn besonders wididger Aspekt wddier dabd zu berfidcsiditigen ist besteht im Prinzip der genOgenden 
wahmehmungstedmisdien Untersdieidbaikdt der Phoneme [5]. Dies i)edeutet daB einzelne Laute in versdiie- 
denen Spradien akustisch untersdieidbar gehdten werdeo, so daB es fur den dnzehien Zuh5rer leiditer ist sie 
voneinander zu separieren. Da aber jede einzelne Spradie einen untersdiiedKchen Phonemschatz hat« werden 
die Grenzen zwisdien zwd ahnlichen Phonemen in jeder einzelnm Spradie spradispezifisdi festgelegt Aus 
diesen GrQnden hat die Auspragung eines bestimmtoi Lautes eine spracfa^ezifisdie Komponente. 

Bevorzugt werden (fie i^neme mittds kontinuierlidien diditen hidden Markov Modellen (CD-HMM) 
modelliert [3]. Als didite Funkdonra werden haiifig Laplace-Misdiungen benutzt Bevorzugt besteht dabei jedes 
dnzelne Phonem aus drd Zust3nden von finks nadi r^ts geriditeten HMM. Die akostisdien Merkmalsvekto- 
ren bestehen dabei beispielsweise aus 24 md-skalierten cepstraf, 12 ddta cepstral, 12 delta ddta cepstral* 
Ener^e, delta-Energie und deha ddta-Energie-KoefGzienten. Beispielsweise wird als Unge des Untersudiungs- 
zeitfensters 25 ms gewShIt; wobd die RabmenabstSnde 10 ms zwisdien den einzehien Rahmen betragen. Aus 
Griinden der begrenzten GrdBe des Spradikorpus werden bevorzugt ledigiidi kontextimahhangige Phoneme 
generiert Als besonders reprasentatives Pfaoneminventar wurde jenes aus [4] gewShlt 

Die Idee der Erfindung besteht dabei darxn» daB zum einen dn AhnlidikettsmaB zor Verfiigung gestellt wird» 
tun aus standardm&fiig verfQgbaren Sprachphonembibliotheken fOr untersdiiedlidie Spradien jenes hidden 
Markov Modell answShlen zu kdnnen, wddies den Merkmalsvektoren, die aus den untersdiiedlidien Lautmo* 
dellen der untersdiiedlidien Sprachen abgdeitet werdeq, am nSdisten kommt Hierdurdi ist es mdglidi, die 
Ahnlidikeiten zweier Phonem-Modelle zu ermitteln und ilber dieses AhnlirhkdtenmaB baaerend auf der 
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Differeoz der Log-LikeGhood-Werte zwischen den Lautreafisxeningen and Lautmodellen dne Aussage zu 
treffeiit ob es sich lohnt einen Lattt fOr mehrere S|irachea gexndnsam zn modellierfn, hzw, ein betreffendes 
scfaon bestehendes bidden Markov Modell fOr die Modellierung des Laut es in mehreren Spiachen za verwenden. 
Hierdurdi wird die Zahl der Parameter, weldie bei der Spracherkennimg zu berOcksicbtigen and redoziert, 
5 indem die ZabI der znimterswbenden hidden Markov Mode^ 

^ Bn zweher Trf>?nmgsansat7 der Erfindung besteiit darin, ein speaeQes PoIypbonenirModell zur ModeOienmg 
eines Lautes in mehreren Sprachen zu erstellen. Hietzu werden zunachst beispielsweise drei Lautsegmente, in 
Form eines Anlautes; Mittellautes und Ablantes gebildet, deren 7^*t3»rti> aus mehreren WahrcritimiHnt^fr^f^ 
cKditefonktionen den sogenannten Mischvertdlaogsdicfaten mit den dazogehoiigen Diditen bestehen. Diese 

10 Dichten der fiber verschiedenen Sprachen ahnlichen Lautsegmente werden zu dnem multilingaalen Codebudi 
zQsammengefaBt Somit teilen skb Lantsegmente versdiiedener Sprachen die ^eichen Dicfaten. WShrend das 
Codebuch fur mehrere Sprachen gieichzeidg benutzt werden kazm, werden beispielsweise die Gewicfate, mh 
denca die Dichten gewiditet werden fur jede Sprache getrennt enmttelt 
Zur Bildung ernes gedgneten AhnDdikettsmafi es werden berorzugt hidden Markov ModeOe mit drd Zustan- 

15 den herangezogen. Das Abstands- oder AhnlichkeitsmaB kann dabd benutzt werden nm mehrere Fhonem-Mo- 
de!le zu einem multiHngualen Phonem-ModeU zusammenzufassen oder diese auf geeignete Weise za ersetzen. 
Hierdurch kann dn muItiUngualer Phonemschatz entwickeh werden. Bevorzugt wird zur Me^ung des Abstan- 
des hzw. zur Bestimmung der Ahnlidikdt von zwd Phonem-Moddlen des sdben Lautes aus mtersduedCcfaen 
Sprachen eine MeBgrSBe verwendet, wdcfae anf der rdativen &itropie basiert [i]. Wafarod des IVaintogs 

20 werden dabd die Parameter der gemischten Laplacedichtevertenungen der Phonem-ModeUe bestbnmt Wdter- 
h m wird f ur jedes Phonem ein Satz von Phonemtokens X als Merkmalsvektor aus einem Test* oder Entwick- 
hmgssprachkorpus eztrahiert Diese Phoneme kdnnen dabd durch ihr international genormtes phonetisdies 
Etikett maridert seha. GcmaB der Erfindung werden zwd Phonem*Moddle X« und ^ und ihre zugehdrigen 
Phonemtoken Xi und Xj zur Bestimmung des AbnlichkettsmaBes zwischen diesen unteisdiiedlidien Pfaonemen 

25 wiefolgtbdianddt 

d(XiXi)-k>gp(Xi|XO-k>gp(Xi|Xi) (1) 

Di^ AbstandsmaB kann als Log-Iikefihood-Abstand angesehen werden, wefcher darstellt wie gut zwd 
30 verschiedene ModeUe zu dem sdben Merkmalsvektor Xi passen. DemgemaB wird der Abstand zwischen den 
bezden Modellen undXi gemaB: 

- logppCjlXj) - logppCjIXO (2) 

35 bestimmt Um dnen symmetrischen Abstand zwischen diesen bekien I^onem-ModeHen zu erhalten. wird dieser 
bevorzQgtgemaB 
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d{Xj;X,) = l(d(X,.Xj)+d{V.^i)) (3 



) 



bcstammt Anhmd von experimeotenea Befunden konnte festgesteUt werden, daB sidi dmcbaiis dnige Phonemr 
Jtodefle aus aiidoreD Sprarien besserto 

ak era deotsches Phonein-KfodelL Bnspielsweise gOt dies fOr die numeme k. p and N. FOr diese Piioneme^SsDet 
suh das oigli^e Hionem-ModeD besser als das deutsdie. WShrend beispidswdse m grofier Untns^ed 
zwisciien dem deutschen und dem aigiiscfaen Moddl flber den Umlaat all beobachtet wurde, was hedenttj* rf^ i^ 
far beide Laute ein unterschiedfidies $ymboI im multilingualen Phonemsdiatz dogefOfait wetden soDte. Ande- 
reneitskcnmeRritenUmlantalimdeatsdienin^ 

bedeutet, daB ledisMi em Phonem-ModeB fOr bdde Sprachen gleich gut Verwendnng finden Ansgehend 
dmoB soUtefOr jedes Symbol eines nudtilingualen Phonemsdiatzes ein sqiarates statistisdies Kfodell menet 
werdra. In [6] warden Ptolyplioneme als solcfae Phoneme bezddine^ ihnlich genng snid, um in vetsdiiedenai 
^achcn als em einziges Phonem modeUiert zu werden. On NachteQ £eser Voigeheoswdse besteht darin. daB 
^dw spradiqiesfische ErlEenntmg der voUstSndige akustisdie Raum des Polyphonems verwendet wiiA Die 
as Erfindung hat esjedoch Mm ZSei, die spraduAh^ 

ones multihngualen Modelb zu kombmierea GemSB der Etfindmig soBen m emem Potyphonem-Moddl soldie 
Bereidie des aknstBdien Raumes eingegrenzt werden, in denen sich die verwendeten WahrschdnEchkntsdicb- 
ten der emzelnen Phoneme Gberiappea Hienu wird z. & eme grnppierende Verdiditnngstedmikraedommera- 
twe densi^ dustenng tedmique) dngesetz^ um gleidie oder ihnfiche Ausprigungen ernes Phonemszu rednzie- 
60 roL BesomteR wichtig ist es dabd zu beaditen, daB ledigfich die Ukhtea der korrespondierenden Zustande der 
emzelnen hidden Markov ModeUe in den Plionemen zusammengefaBt werden dOrfen. 

In Fig. 1 ist dabd zu erkennei^ daB die jeweiligen IMchtm far (Se dnzehien ZustBnde U M and R m den 
ragegrenzten Regionen endialten sind. Wihrend identische Diditen Qber die dnzdnen Sprachen EN DR und 
r ^eren die Mischungsgewidite sprachabhSn^ Bd dieser Bewertung soDte jedodi audi 

65 ™^^^^JjJ«^^spezifischeAnspragungendnesPhonemsmver^ 

Die aisammenfassmig der untersdiiedlidien Wafarschdnlichkdtsdichten kann dabd mit dnem nnterschiedli- 
dien AbstandssdiweUeiiwert fOr die WahischdnCchkettsdichten bd der Diditebaufong (denaty dustenng 

4 
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durdigefOhrt werden. Beispielswdse wurde mt dnem AbstandssdiweDeiiwert von flinf £e Zahl der verwende- 
ten Dichten um einen Faktor 3 gegeniiber dem Ausgangszostand reduziert ohne damit cine entscheidende 
Verschleditemiig bd der SpracheAenntingsrate einher ging. In diesem Fall wurden 221, 48 imd 72 von den 
ursprunglichen 341 Ausgangsdichtai fOr jeweOs die Po^honem-Regionp die Zwdspradien-R^gion und die 
Eiiupradien-Region zusammeogefaBt In Fig. 1 ist eine sokhe Pol^bonemregion als Sdmittmenge der Kreise s 
fSir die fif^T'^^ig" Spradien dargestelit Beim Mittellaut M des dargesteUten hidden Markov Modells ist bdspiels- 
weise eine Wahrsdietnlichkeitsdichte in einer sok:hen Region als WDP bezeicfanet Die Erkennungsraten fur dn 
kompiettes muldBBtguales Spradierkennungssystem sind dabei in Spalte 4 und 5 der Tabelle 2 als MLl und ML2 
angegeben. 



Language 


#Tokeas 


LDP[%] 


ML1[%] 


ML2[%] 


English 


21191 


39.0 


37.3 


37.0 


G&aaan 


9430 


40.0 


34.7 


37.7 


Spanish 


9525 


53.9 


46.0 


51.6 


Total 


40146 


42.8 


38.8 


40.8 



^^hrend bei der ersten Untmncbung MLl die tonvendoneOe Poiyphonem-Definidon aus [6] verwendet 
wuide, was bedeutet daB der konq>lette akustisdie Bereich des Polyphonem-Modells bestebend ans der iuBeren 
Kontur der Spra^erddie m 1, fur die Erkennnng verwendet wurde, benntzt die er&dungsgemaBe 
Methode ledi^idi einen TeHber^i dmus. Indem die teilweise Oberiappuog der einzelnen Sprachberdche fOr 25 
die einzelne ModeHierung des Fdyphonem-Modells herangezogen wird, ist beispielsweise eine Verbessening 
von 2% erzidbar, wie dies in Tabelle 2 in der Spalte for ML2 dargesteOt ist 

Ilteratar 

30 

[1] V. Digalakis A* Sankar, F. Beaufq^- Training Data Oustering For Improved Speech Recognition.*, In Ptoc 
EUROSPEECH'94pages 503-506, Madrid, 1M5; 

[2] P. Dalsgaard and O. Andersenj IdentiScation of Mono- and Poly-phonemes using acoustic-phonetic Featu* 
res derived by a self-organising Neural Network."; In Proa ICSLP '92; pages 547—550; Banl^ 1992; 
[3] A. Hauenstein and E. Maiscfaalb "Methods for Improved Speech Recognition Over the Telephone Lines.* In 35 
ProaICASSP'95,pages425-428,Detroit, 1995; 

[4] J. L. Hieronymus^ "ASCII Phonetic Symbols for the World's Languages: WoTidbet"» preprint, 1993; 

[3] P. Ladef QgecL A Course in Phonetics."*, Harcourt Brace Jovanovicfa, San Diego, 1993; 

[6] P. Dalsgaard O. Andersen and W* Banyu "Data-driven Identification of Pofy- and Mono-phonemes for four 

EuropeanI^guage&";inProa£UROSPEECH'93;pages759--762,Beriin,1993; 40 

[7] A. Cole YX. Muthusamy and BX Osfaikaj "The OGI Multilanguage Tel^ihone Speech Corpus.*, In Proa 

IC-SLP ^92, pages 895-898; Ban% 1992. 

Patentanspruche 

45 

1. Verfahren zur Mehrspradien Verwendung eines hidden Maricov Lautmodelles in einem Spracherken- 
nungssystem, 

a) bet dem ausgehend von mindestens einem ersten Merkmalsvektor fOr dnen ersten Laut (UMJR) m 
einer ersten Sprache (SP,EHI>£) und von mmdestens einem zweiten Merkmalsvektor iOr einen ver- 
gleichbar gesprochenen zweiten Laut m mindestens einer zweiten Sprache (D^SP,EN) und dmn so 
zugelidrigen ersten und zweiten hidden Maricov Lantmodelleq, ermittelt wM welches der beiden 
hidden Ma^v Lautmodelle (L^MR) beide Merkmalsvektoren besser beschreibt, 

b) und bei dem dieses hidden Maricov Lautmodell (LMR) fOr die Modellierung des Lautes ni minde- 
stens bdden Sprachen (SP,ENJ>E) verwendet wird. 

2. Verfahren nacfa Anspruch 1, bd dem als MaB fur die Beschreibung eines Mericmalsvektors durdi ein 55 
hidden Markov Lautmodell CUM,R) der iogarithmisdie WahrscheinKchkeitsabstand als log Gkelihood (£st- 
ance zwischen jedem ludden Mslrkov Lautmodell und mindestens einem Merkmalsvektor gebUdet wird, 
wobei eine kOrzerer Abstand eine bessere Beschreibung bedeutet 

3. Verfohren nach Anspruch % bei dem als MaB fOr die Beschreibung der Merkmalsvektoren durdi die 
hidden Markov Lautmodelle der arithmetische KGttetwert der logarithmischen WahrscheinOchkeitsabstSn- so 
de bzw. der log likelihood distances zwischen jedem hidden Markov Lautmodell (UMJl) und jedem 
jeweiiigen Mer^alsvektor gebtldet wird, wobei eine kOrzerer Abstand eine bessere Beschreibung bedeu- 
tet 

4. Verfahren nach Anspruch 3; bei dem das erste hidden Markov Lautmodell (UMJR.) von einem Phonem Xi 
und das zweite hidden Maricov Lautmodell von einem Phonem Xj verwendet wird und bei dem als erste und 65 
zweite Merkmalsvektoren Xt und X| verwendet werden, wobei der logarttlmiische Wahrscheinlichkeitsab- 
stand zum ersten Merkmalsvektor gemafi 
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d(Xi>i)-logp(Xi|XO-tagp(Xi|Xj) (I) 

bestinimt vnrd und der logarithmische WflhTy*hynit|f>f|fcpf^|y5^nj y^tm zweiten Merianalsvektor gemSB 
«i(XiX0-logP(XjIXj)-tagp(3Q|Xi) (2) 

bestimnit wirdL wobei znr Erzielimg ones synimetrischen AbstandsmaBes der arithmetiscfae Mtttetwert zn 



cl(A,^;A,) = i(d(A,„Xj)+d(A;j;X,)) (3} 



15 5. Verfahrennadi Anspruch 4, bd don dieses biddra Markov Lantmodell (UMJR) fOr die ModeDterungdes 
Lautes in mindestens beiden Sprachen nur v&wendet wird, falls dfXjM dne festgelegte SchrankenbediiH 
gungerfuOt 

6. Verfahren zur MehrsprachenvCTwendung eines hidden Maricov Lautmodefles in einem Spracherken- 
nungssysten^ 

20 a) bd dem ausgehend von mindestens einem ersten hidden Markov LantmodeD (LJMJQ fOr einen 

erstm Laut m einer ersten Spradie (SP3NJDE) and von mmHy^ ffng emem zweiten hidden Markov 
LantmodeQ (UM3) fOr einen verglddibar gesprochenen zvdten Latit in mmri^ Anc eJner zweiten 
Spradie (PEJSP^H% ein Poly Phonem Moddi derart gebiUet wirdr daB <fie fur £e Moddlierung des 
ersten und zwdten hidden Maiiayv LautmodeOes (LM^) verwendeten Standardwahrschdnlidikeits- 

25 vertdhingen (WD) bis zu dnem festgelegten AbstandssdiweOenwert, der angjbt l»s zu weldiem 

mazimalen Abstand zwisdien zwd Standardwalxrsdieiiilttjikdtsvertdlungen (WD) diese zosammen- 
gefugt werden sollen za jeweik dner nenen Standardwahrsdieinfichkdtsvertdhing (WDP) 
gefQigt werden und ledii^idi die zusammengefOgten Standanlwahrsdi^^ 
Phonem Modell diarakterisierett 

30 b) und bd dem dieses Pol/ Phonem ModeQ fOr die Moddfierung des Lautes m mmdestens beiden 

Spradira pE3P£N) (L»MJt) vcrwendet wird 

7. Verfahren nadi Anspruch 6, bd dem als AbstandsschweDenwert 5 f estgdegt winL 

a Verfofaren nadi dnem der vorangehenden AnsprGdie bd dem hidden Maikov Lautmodelle mit drd 
Zustanden verwendet werden, wddie aus den Lautsegmenten Anlaut, MitteOaat und Ablaut eebOdet 
35 werden. 
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